从理论到实践:构建高水准大模型评测体系的权威指南
大语言模型(LLM)加速渗透各行业的同时,其 “黑盒” 特性也让模型能力的科学衡量成为难题 —— 技术选型时该参考哪些指标?迭代优化中如何验证效果?一套完善的评测体系既是衡量模型的 “标尺”,更是驱动其进化的 “引擎”。本文围绕大模型评测的核心逻辑,先拆解 “
大语言模型(LLM)加速渗透各行业的同时,其 “黑盒” 特性也让模型能力的科学衡量成为难题 —— 技术选型时该参考哪些指标?迭代优化中如何验证效果?一套完善的评测体系既是衡量模型的 “标尺”,更是驱动其进化的 “引擎”。本文围绕大模型评测的核心逻辑,先拆解 “
过去几年,语言大模型(LLM)横扫AI领域,靠着“预测下一个词”这一招,攻城略地、风头无两。但问题也逐渐浮出水面:训练成本高、泛化能力差、容易过拟合。Meta首席AI科学家 Yann LeCun 倒是早有批评,这次他不再只是“嘴上说说”,而是亲自下场,带队搞出
随着 LLM 服务广泛部署,服务的可用性和流量治理面临新的可靠性要求。由于 LLM 服务参数量级限制,其服务部署和重启时间较长,如果服务因为过载而故障,则重启时间达到分钟级,对服务可用性影响极大。
你将看到 AI 如何为端到端测试注入强大动力 —— 不是理论上的,而是通过现实世界中的实际演示。我将通过一个现实世界的演示向你展示,该演示解决了几个日常用例,并展示了以下端到端测试 AI 代理的关键功能:
随着量化投资的发展和因子挖掘技术的升级,Alpha因子的数量已呈现出指数级的增长。如何有效、动态地组合日益增多的Alpha模型,已取代单纯的因子挖掘成为决定投资收益的核心。我们发现各个合成模型在不同的市场阶段往往会出现表现上的明显差异,很难找到某个单一模型可以
众所周知,在强化学习训练中的关键环节就是奖励信号的获取,准确的奖励信号对于训练的效果至关重要。在经典RL 中,奖励信号可以看作环境的一部分 —— 即行动后环境的真实反馈,而在 RL 训练 LLM 中,奖励值的来源主要有两种方式:
JEPA 的核心概念最早由 Yann LeCun 及其团队提出,旨在通过在抽象表征空间中预测未来或缺失的特征来高效学习世界知识。随后,Meta AI 团队提出了具体实现,包括 I-JEPA(用于图像、自监督学习、CVPR 2023)和 V-JEPA(用于视频)
随着 AI 技术的快速发展,构建大语言模型应用已经成为了许多开发者和企业的重要需求。而 Dify 作为一个开源的 LLM 应用开发平台,凭借其直观的界面和强大的功能,正在成为这个领域的佼佼者。最近,Dify 发布了 v2.0.0 beta 版本 ,这个版本带来
具身智能本质特点是具备理解物理世界并与之交互的能力,实现机器人控制从指 令执行到自主决策的转变。非具身模型如大语言模型 LLM 依赖静态数据,专注文 本/图像等信息的理解与生成;具身大模型需整合机器人本体、场景依赖数据、多 模态算法等要素,目标是实现与物理环境
AI 大模型正在重塑数据驱动的底层逻辑。本文以实战视角,拆解如何将大模型能力嵌入业务流程,实现从数据到洞察的跃迁,是企业迈向智能化运营的实用指南。
近日,清华大学姚权铭副教授团队提出了一套全新的药物相互作用预测方法——CBR-DDI 框架。这项研究首次把临床医生常用的“参考过往病例”(CBR,Case-Based Reasoning)方法引入到大语言模型(LLM,Large Language Model)
文章概述了多种 LLM 推理框架,包括 vLLM、Hugging Face TGI、SGLang、NVIDIA Dynamo、AIBrix 和 llm-d。它们在性能、可扩展性、编排和对不同部署场景的适用性方面各有优势,满足了低延迟、高吞吐量和异构硬件部署的需
本报告旨在剖析决定自动驾驶竞赛胜负的核心要素,包括技术路径、监管演进与竞争格局等。同时,我们梳理出当前投资者的关键争议焦点,帮助把握产业变革带来的机遇。若要脱颖而出,我们认为企业需构建完整生态体系,涵盖三大要素:1)成熟且可控的L4技术、2)稳定的出行平台或流
llm 十问 l4 robotaxi robotaxi争议 2025-09-20 10:49 6
A tiny LLM predicts health events, even death, with remarkable accuracy.AI is learning the "grammar of disease," turning diagnoses
Swarm sAmplingPolicyOptimization,简称SAPO,这个名字听起来有点学术,但它解决的问题很实际。大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够,要么效率太低。SAPO提出了一种去中心化的异步RL方案,让各个计算节点之
钉钉的转型不仅是一次产品重构,更是中国办公生态的深层变革信号。本文从产品演进、生态联动到用户心智变化,系统解析钉钉如何在AI时代重塑协同逻辑,并带动整个办公体系的再定义。
llm 生态 钉钉 工作流 dingtalka1 2025-09-19 16:31 5
美国宾夕法尼亚大学领导的一项预印本研究表明,在说服人类时被证明有效的心理学技巧,也能被用来“说服”一些大语言模型(LLMs)回答一些违背其系统提示词的问题。
近年来,大语言模型(LLMs)在复杂推理任务上的能力突飞猛进,这在很大程度上得益于深度思考的策略,即通过增加测试时(test-time)的计算量,让模型生成更长的思维链(Chain-of-Thought)。然而,这条路径正面临着一个明显的瓶颈:随着计算资源的持
你有没有过这样的体验?在高速上对着导航喊“小度小度”,它就神奇地回应道“来了”;在地下车库问“最近的充电桩”,屏幕立刻跳出相关的充电桩指引;甚至对车载语音助手说“有点冷”,空调的温度就会悄悄调高。这些看似“读心术”的交互背后,藏着一个能听懂人话、能感知环境、能
过去一年,AI视频生成领域彻底“起飞”了。OpenAI 的Sora、谷歌DeepMind 的Veo 3、Runway 的Gen-4,一个接一个地登场,生成的视频质量高到几乎可以以假乱真。不仅画面真实,连光影、动作、镜头语言都越来越接近专业级影视制作。Netfl
视频 逻辑 llm transformer sora 2025-09-18 16:48 3